Das Generalist Language Model ist ein riesiges KI-Sprachmodell von Google. Es wurde 2021 vorgestellt und hat 1,2 Billionen Parameter. GLaM zeichnet sich durch einen geringen Energieverbrauch und eine hohe NLP-Leistung aus. Im Vergleich zu GPT-3 ist es siebenmal größer, verbraucht aber beim Training nur rund ein Drittel der Energie von GPT-3. Das Sprachmodell hat eine Mixture-of-Experts-Architektur (MoE) mit 32 MoE-Schichten und jeweils 64 Experten-Netzen.
GLaM ist das Akronym für Generalist Language Model. Es handelt sich um ein riesiges, Ende 2021 von Google vorgestelltes KI-Sprachmodell. Es ist mit 1,2 Billionen Parametern circa siebenmal größer als GPT-3 mit seinen 175 Milliarden Parametern. Das Sprachmodell zeichnet sich durch einen geringen Energieverbrauch und eine hohe NLP-Leistung aus. Training und Inferenz sind energieeffizient durchführbar. Im Vergleich zu GPT-3 wird für das Training von GLaM nur rund ein Drittel an Energie verbraucht.
Hinsichtlich der Rechenleistung bei der Inferenz sind nur rund die Hälfte an Gleitkommaoperationen pro Sekunde (FLOPS – Floating Point Operations Per Second) notwendig. Das Generalist Language Model hat eine Mixture-of-Experts-Architektur (MoE) mit 32 MoE-Schichten und jeweils 64 Experten-Netzen. Trainiert wurde es mit einem Datensatz mit circa 1,6 Billionen Token.
Motivation für die Entwicklung des Generalist Language Model
Die Größe eines Sprachmodells hat starken Einfluss auf dessen Leistung in den verschiedenen Aufgabenbereichen des Natural Language Processing (NLP). In den letzten Jahren wurden die KI-Sprachmodelle mit Transformer-Architektur immer größer. Diese Sprachmodelle mit der großen Anzahl an Parametern zu trainieren und für die Inferenz zu betreiben, benötigt eine hohe Rechenleistung und viel Energie. Zahlreiche KI-Forscher und KI-Experten beschäftigen sich daher damit, effizientere Modelle zu entwickeln.
Auch Google forscht intensiv in diesem Bereich. Ein Ansatz für energieeffizientere Sprachmodelle ist die sogenannte Mixture-of-Experts-Architektur (MoE), bei der für unterschiedlichen Input eigene Netzschichten mit Experten-Netzen angelegt sind. Das Generalist Language Model ist ein Ergebnis dieser Forschung und besitzt 32 MoE-Schichten mit jeweils 64 Experten-Netzen.
Die Architektur und die prinzipielle Funktionsweise von GLaM
GLaM hat eine Mixture-of-Experts-Architektur (MoE-Architektur). Bei KI-Modellen mit dieser Architektur werden für bestimmten Input untergeordnete Netzschichten mit speziellen Experten trainiert. Im Vergleich zu einem einfachen Transformer-Netz ist das Feedforward-Netzwerk durch MoE-Schichten mit mehreren Experten-Netzen ersetzt. Für einen Input-Token werden beim Training die jeweils zwei am besten geeigneten Experten-Netze aktiviert. Diese beiden Experten kommen dann auch in der Inferenz zum Einsatz. Obwohl GLaM deutlich mehr Parameter besitzt, arbeitet es effizienter, da die Experten-Netze sehr sparsam aktiviert werden. Ein Experten-Netz kann sich über mehrere Rechengeräte erstrecken. Insgesamt besitzt GLaM 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Durch die MoE-Architektur werden während der Inferenz nur rund acht Prozent der 1,2 Billionen Parameter aktiviert.
Das Training des Generalist Language Model
Das Generalist Language Model wurde mit einem von Google aufbereiteten Textdatensatz mit rund 1,6 Billionen Token trainiert. Im Vergleich dazu war der Trainingsdatensatz von GPT-3 nur 499 Milliarden Token groß. Einen Teil des Trainingsdatensatzes für GLaM bilden Webseiten. Aufgrund der sehr unterschiedlichen Qualität des Web-Contents von professionellen Texten bis zu einfachen Kommentaren entwickelte Google einen Qualitätsfilter, der mit Texten aus Büchern und Wikipedia-Texten trainiert wurde. Dieser Filter wurde auf den Web-Content angewandt. Zusammen mit Büchertexten, Wikipedia-Artikeln und weiteren Texten bilden die gefilterten Inhalte der Webseiten den Trainingsdatensatz.
Der Trainingsdatensatz setzt sich im Detail aus diesen Texten zusammen: gefilterte Webseiten (143 Milliarden Token), Wikipedia (3 Milliarden Token), Konversationen (174 Milliarden Token), Foren (247 Milliarden Token), Bücher (390 Milliarden Token) und Nachrichten (650 Milliarden Token). Während des Trainings wurde jeder Input-Token dynamisch zu zwei von 64 möglichen Experten-Netzwerken geroutet. Zwar benötigte GLaM beim Training mehr Rechenleistung pro Token als GPT-3, aufgrund der effizienten Software und Hardware-Architektur wurde aber nur rund ein Drittel an Energie verbraucht. Für die Inferenz wird nur rund die Hälfte an Rechenleistung (FLOPS) benötigt.
Die Leistung des Generalist Language Model für verschiedene Sprachaufgaben
Die Leistung des Generalist Language Model für verschiedene Sprachaufgaben wurde in mehreren Benchmarks gemessen. GLaM erreicht oder übertrifft die Leistung von GPT-3 in einer Vielzahl an Kategorien von Zero-Shot- und One-Shot-Aufgaben (fast 80 Prozent der Zero-Shot-Tasks und fast 90 Prozent der One-Shot-Tasks). Zu den Sprachaufgaben zählen zum Beispiel das Vervollständigen von Text oder das Beantworten von Fragen. Die NLP-Leistung ist bei einem deutlich geringerem Energieverbrauch in sieben Benchmarks vergleichbar mit dem Megatron-Turing Natural Language Generation Model (MT-NLG) von Nvidia mit seinen 530 Milliarden Parametern.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.